Задание 1. Построить выравнивание представителей домена Pfam белков с разной доменной архитектурой

Для выполнения задания я выбрал следующее семейство доменов (ID: FAD_binding_1, AC: PF00667).

Это семейство доменов цитохром редуктаз пиридиновых нуклеотидов. Флавопротеиновые пиридиннуклеотидные цитохроморедуктазы катализируют обмен восстановительных эквивалентов между одноэлектронными носителями и двухэлектронными несущими никотинамиддинуклеотидами. В семейство входят следущие ферменты: ферредоксин-НАДФ редуктазы, растительные и грибные НАДФ-Н, различные нитратредуктазы, цитохром b5 редуктаза, цитохром Р450 редуктаза, сульфитредуктазы, синтазы оксида азота, фталатдиоксигеназа-редуктаза и различные другие флавопротеины).

Данный домен содержит 5226 последовательностей из 1617 видов, в его состав входит 124 архитектура, для 124 последовательностей реконструированы трехмерные структуры

По ссылке доступны все архитектуры из этого семейства.

Я скачал в Jalview часть последовательностей семейства и выровнял их алгоритмом Muscle, после чего покрасил по ClustalX c порогом консервативности 10.

Ссылки на проекты: Jalview-проект и он же в формате .fasta

Я выбрал 2 доменные архитектуры:

Для получения информации о последовательностях, содержащих мой домен, я воспользовался скриптом swisspfam-to-xls.py

В качестве входного параметра -p я указал необходимый Pfam AC.

Команда: python swisspfam_to_xls.py -z /srv/databases/pfam/swisspfam.gz -p PF00667 -o PF00667.xls

Далее нужно получить информацию о таксономии из записей Uniprot и преобразовать её в в таблицу Excel. Для решения этой задачи я воспользовался скриптом uniprot-to-taxonomy.py

На вход программы подаётся текстовый файл с нужными последовательностями.

Команда: python uniprot_to_taxonomy.py -i uniprot.txt -o taxonomy.xls

Я перенес полученную таксономию в основную таблицу.

На основании построенной таблицы Excel я решил выбрать в качестве таксона надцарство Eukaryota, а в качестве подтаксонов Metazoa ("M") и Fungi ("F"). Я отобрал 13-15 последовательностей для каждой выбранной архитектуры в подтаксонах.

Для отбора нужных мне последовательностей я использовал скрипт filter-alignment.py

На вход подается файл в формате .fasta с последовательностями и список с именами нужных мне последоваетльностей. Опция -a "/" использовалась для отделения имени последовательности от координат в домене

Команда: python filter-alignment.py -i seq_all.fasta -m ids -o my_seq.fasta -a "/"

Полученные последовательности были загружены в Jalview и обработаны как выравнивания. Я удалил N- и C-концы и оставил последовательности с небольшим различием в длине (около 200 пар нуклеотидов).

Результаты

Основная таблица

Я не вижу каких-либо ошибок, однако я рассчитывал получить более качественное выравнивание для консервативного домена. Тем не менее, вертикальные блоки удовлетворительного качества присутствуют. Поэтому я попробую реконструировать эволюцию доменной архитектуры по этому выравниванию.

Задание 2. Построить филогенетическое дерево последовательностей домена

Дерево построено методом Neighbor joining с бутстреп поддержкой в 100 реплик.

Cкобочную формулу этого дерева можно посмотреть тут

Можно заметить, что дерево делится на две большие ветви, которые я условно назвал 2 и 3. На ветви 3 расположены в основном белки с архитектурами PF00175.18 + PF00258.22 + PF00667.17, а на 2 - соответственно PF00175.18 + PF00667.17. Такое разделение не является абсолютным, так как некоторые белки с двумя доменами попали на ветвь 3 (такие исключения подчеркнуты на изображении), но тенденция не может быть случайной.

Другая закономерность - на обоих ветвях белки животных и грибов не пересекаются и находятся в разных кладах (исключения, кк не странно, те же). На ветви 2 клады с белками животных и грибов разделяются одним узлом, а на ветви 3 ветви с кладами животных белков отходят от ветвей с грибными белками.

Можно предположить, что изначально предки животных и грибов имели трехдоменные белки, однако произошла редукция и появились белки, содержащие два домена (PF00175.18 + PF00258.22 + PF00667.17 потерял домен PF00258.22 и стал PF00175.18 + PF00667.17).

Это событие произошло еще до разделения, так что двух- и трехдоменные белки имеются у обоих групп. Затем, уже после разделения, у некоторых животных произошла еще одна редукция и у них появились двудоменные белки, однако они все-равно остались ближе к трехдоменным, поэтому на филогенетическом дереве их листья расположены на ветви 3. Собственно именно так и появились описанные выше исключения (в основном это животные белки). Похожие события происходили и у грибов, один такой белок присутствует в кладе 3.

Вывод: в основе эволюции рассмотренных мною доменных архитектул лежала редукция.


© Борисов Евгений 2017